Classification d'un tableau de contingence et modèle probabiliste

نویسندگان

  • Gérard Govaert
  • Mohamed Nadif
چکیده

Résumé. Ces dernières années, la classification croisée ou classification par blocs, c’est-à-dire la recherche simultanée d’une partition des lignes et d’une partition des colonnes d’un tableau de données, est devenue un outil très utilisé en fouille de données. Dans ce domaine, l’information se présente souvent sous forme de tableaux de contingence ou tableaux de co-occurrence croisant les modalités de deux variables qualitatives. Dans cet article, nous étudions le problème de la classification croisée de ce type de données en nous appuyant sur un modèle de mélange probabiliste. En utilisant l’approche vraisemblance classifiante, nous proposons un algorithme de classification croisée basé sur la maximisation alternée de la vraisemblance associée à deux mélanges multinomiaux classiques et nous montrons alors que sous certaines contraintes restrictives, on retrouve les critères du Chi2 et de l’information mutuelle. Des résultats sur des données simulées et des données réelles illustrent et confirment l’efficacité et l’intérêt de cette approche.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification topologique probabiliste pour des données catégorielles

Cet article présente une carte auto-organisatrice probabiliste pour l’analyse et la classification topologique des données catégorielles. En considérant un modèle de mélanges parcimonieux nous introduisons une nouvelle carte auto-organisatrice (SOM) probabiliste. L’estimation des paramètres de notre modèle est réalisée à l’aide de l’algorithme EM classique. Contrairement à SOM, l’algorithme d’a...

متن کامل

Modèles de mélanges topologiques pour la classification de données catégorielles et mixtes

Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représe...

متن کامل

D'une compacité positionnelle à une compacité probabiliste pour un système de Questions / Réponses

RÉSUMÉ. Dans cet article, nous présentons une discussion sur la définition d'un score de compacité pour permettre l'extraction d'une réponse dans un système de Questions/Réponses. Ce score de compacité qui peut être succinctement décrit comme une fonction liée a la densité des termes de la question dans le voisinage d'une réponse candidate, est présenté en détail. Ensuite, une discussion nous a...

متن کامل

Evaluation modulaire d'un système de questions-réponses sur un corpus de questions semi-spontanées

RÉSUMÉ. Cet article présente une évaluation séquentielle du système de questions-réponses modulaire et stochastique SQuALIA. L’évaluation se fonde sur un corpus de question semispontanées obtenu en faisant poser 20 questions de référence à des adultes francophones, non francophones ou dyslexiques. Les expériences montrent que ce sont les fautes d’orthographe qui ont le plus d’impact sur les mod...

متن کامل

Intégration de la structure dans un modèle probabiliste de documents

Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005